Econometria Aplicada à Finanças
Aula 3

Mestrado Profissional em Administração

Prof. Washington Santos da Silva

IFMG - Campus Formiga

2 de setembro de 2025

Diário de Bordo

O que vimos até o momento?

  • Aula 1 ✅

    • Apresentação da Disciplina ✅
    • Introdução ao RStudio ✅
    • Configurando o Projeto da Disciplina ✅
    • Conheça e Utilize o Terminal Git Bash ✅
  • Aula 2 ✅

    • Git e GitHub: Visão Geral ✅
    • Introdução ao Sistema: Visão Geral ✅
    • Linguagem R: Visão Geral ✅
    • Sessão Prática 1 ✅

Nesta Aula

Minicurso Intensivo sobre Teoria da Probabilidade - Parte I

  • Introdução à Teoria da Probabilidade
  • Variáveis Aleatórias e Distribuições de Probabilidade
  • Distribuições Conjunta, Marginal e Condicional

Diretrizes para Aulas Mais Produtivas

⌨️ Código com método:

95% dos erros são evitáveis com:

  • Respeitar a sequência lógica de etapas
  • Revisão antes de pedir ajuda
  • Atenção na digitação

🤝 Inteligência colaborativa:

  • Compartilhe conhecimento
  • Resolva questões técnicas simples com colegas próximos
  • Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada problema/erro resolvido é uma evolução da sua habilidade analítica

1 Introdução à Teoria da Probabilidade

Experimento/Processo Aleatório

Experimento Aleatório

Processo ou fenômeno com resultados incertos, ou seja, não podemos prever o resultado com certeza, mas podemos descrever os possíveis resultados.

Exemplos de “Experimentos”/Processos Aleatórios:

  • Variação diária da taxa de câmbio Real/Dólar
  • Preço diário da saca de soja no Brasil
  • Retorno de uma ação na B3 -
  • Taxa de inadimplência de crédito em uma instituição financeira

Por que “experimento”?

  • Termo herdado da física/estatística clássica
  • Implica repetibilidade (condições controláveis)

Espaço Amostral

Definição

Conjunto de todos os resultados possíveis de um processo aleatório, denotado por \(S\).

Exemplos:

  1. Resultados possíveis de um lançamento de um dado equilibrado e observar a face voltada para cima.

\[ S_1 = \{1, 2, 3, 4, 5, 6\} \]

  1. Resultados possíveis do processo de observar se uma pessoa física terá, ou não, um empréstimo aprovado:

\[ S_2 = \{Aprovado, Reprovado\} \]

  1. Resultdos possíveis do processo de observar o retorno diário de uma ação:

\[ S_3 = \{ r \in \mathbb{R} : -1 < r < +\infty \} \]

Evento

Definição

  • É qualquer conjundo do espaço amostral (\(S\)), incluindo resultados individuais, S e o cojunto nulo.

  • Se um resultado é membro de um evento, dizemos que o evento ocorreu.

Exemplos:

  • \(A = \{3\}\) é um evento de \(S_1\)

  • \(B = \{Aprovado\}\) é um evento de \(S_2\)

  • \(C = \{r > 0\}\) é um evento de \(S_3\)

Probabilidade e Teoria dos Conjuntos

Teoremas

Podemos provar um grande número de teoremas úteis sobre probabilidade de eventos usando a teoria dos conjuntos. Mas antes vejamos alguns conceitos e notação

\(\cap\) = interseção

\(P(A \cap B)\), em termos de probabilidade de ocorrência de eventos, é a probabilidade de \(A\) e \(B\) ocorrerem simultaneamente.

\(\cup\) = união

\(P(A \cup B)\) é a probabilidade de \(A\) ou \(B\) ocorrerem, que implica ou \(A\) ou \(B\) ou ambos ocorrerem.

\(\bar{A}\) = complemento

\(P(\bar{A}) = 1 - P(A)\) é a probabilidade de \(A\) não ocorrer.

Operações entre Eventos

Teoremas Fundamentais de Probabilidade e Conjuntos

Exemplos

  • Complemento: \(P(\bar{A})=1-P(A)\).
  • \(P(A\cup B)=P(A) + P(B) - P(A\cap B)\)
  • Adição (eventos disjuntos): \(P(A\cup B)=P(A)+P(B)\), se \(A\cap B=\varnothing\).

Eventos Mutuamente Exclusivos (Disjuntos)

Definição

  • \(A\) e \(B\) são eventos mutuamente exclusivos se eles não contém nenhum resultado em comum

\[ A \cap B = \emptyset \]

  • Ou seja, \(A\) e \(B\) não ocorrem simultaneamente.

Eventos Exaustivos

Definição

  • \(A\) e \(B\) são eventos exaustivos se a sua união é o espaço amostral \(S\)

\[ A \cup B = S \quad \text{e} \quad A \cap B = \emptyset \]

  • Ou, a ocorrência de \(A\) e \(B\), abrange todos os resultados possíveis do espaço amostral (\(S\)).

Eventos Exaustivos

Abordagem Matemática da Probabilidade

Axiomas

Atribuiremos a cada evento \(A\) um número \(P(A)\), que é a probabilidade de o evento ocorrer. Nós exigimos que:

  1. \(P(A) \geq 0\) para qualquer evento \(A \in S\)

  2. \(P(S) = 1\) onde \(S\) é o espaço amostral

  3. Para qualquer sequência de eventos mutuamente exclusivos \(A_1, A_2, \ldots\):

    \(P\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i)\)

  • Os axiomas 1 e 2 implicam que \(0 \leq P(A) \leq 1\) para qualquer evento \(A\).

  • Uma probabilidade em um espaço amostral \(S\) é uma coleção de números \(P(A)\) que satisfazem os axiomas 1-3.

Interpretações da Probabilidade

Probabilidade Frequentista

“A Probabilidade de um evento A ocorrer em n repetições de um experimento é aproximadamente a frequência relativa de A”:

\[ P(A) \approx \frac{\text{vezes que A ocorreu}}{\text{nº total de repetições}} \quad \text{(para muitas tentativas)} \]

Exemplo:

  • Em 10.000 lançamentos de moeda, saíram 4.983 caras → \(P(\text{cara}) \approx 0.4983\).

  • Hospitais calculam mortalidade cirúrgica acompanhando resultados históricos.

🔍 A lei dos grandes números garante que essa aproximação melhora conforme aumentamos as repetições.

  • Fundamento da escola frequentista de estatística.

Independência de Eventos

Descrição

  • Será importante para nós, daqui para frente, conseguirmos falar sobre a relação entre eventos probabilísticos.

A mais fundamental dessas relações é a independência.

Definição

Dois eventos \(A\) e \(B\) são independentes se:

\[ P(A \cap B) = P(A)P(B) \]

Dois ou mais eventos \(A_1, A_2, \ldots, A_n\), são independentes se:

\[ P\left(\bigcap_{i=1}^\infty A_i\right) = \prod_{i=1}^\infty P(A_i) \]

  • A intuição correta sobre eventos independentes é que saber que um evento ocorreu não fornece nenhuma informação sobre se o outro ocorreu.

Cálculos de Probabilidade

Exemplo

  • A porcentagem de acerto de arremessos de 3 pontos de Steph Curry é de 44% \(\rightarrow\) \(P(Acertar) = 0.44\)

  • Portanto, a probabilidade de erro é \(P(Errar) = 1 - P(Acertar) = 1 - 0.44 = 0.56\)

  • Considere que os arremessos são eventos independentes.

Cálculos de Probabilidade

Questão 1

Qual é a probabilidade de ele errar os próximos três arremessos que fizer e, em seguida, acertar os três seguintes?

Solução

\[ P(Errar)\cdot P(Errar)\cdot P(Errar)\cdot P(Acertar)\cdot P(Acertar) \\ \cdot P(Acertar) = (0,563)^3 \cdot (0,443)^3 = 0,015 \]

Obtemos o mesmo resultado para qualquer sequência específica de 3 erros e 3 acertos —a ordem não importa.

Cálculos de Probabilidade

Questão 2

Qual é a probabilidade de ele errar três e acertar três dos próximos seis arremessos que fizer?

Solução

  • Basta multiplicar a probabilidade de qualquer uma dessas sequências (0,015) pelo número dessas sequências:

  • \(\binom{6}{3} = \frac{6!}{3!3!} = 20\).

  • \(0,015 \cdot 20 = 0,30 = 30\%\)

Cálculos de Probabilidade

Questão 3

Qual é a probabilidade de ele acertar pelo menos um arremesso nos próximos seis arremessos que fizer?

Solução

  • \(P(X \geq 1)\) = ?

  • Opção 1: Somar as probabilidades de cada resultado possível:

\[ P(X \geq 1) = P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5) \\ + P(X = 6) \]

  • Opção 2: Mais simples:

\[ P(X \geq 1) = 1 - P(X = 0) = 1 - (0,56)^6 = 0,969 \]

Probabilidade Condicional

Motivação

  • Lembre-se de que saber que dois eventos são independentes significa que a ocorrência (ou não ocorrência) de um evento não diz nada sobre o outro.

  • Mas e se tivermos dois eventos em que a ocorrência de um evento nos diz algo relevante sobre a probabilidade de outro evento?

  • Como podemos alterar a probabilidade do segundo evento adequadamente?

Probabilidade Condicional

Definição

A probabilidade de um evento \(A\) ocorrer, condicional à ocorrência de outro evento \(B\), assumindo \(P(B) > 0\) é :

\[ P(A|B) = \frac{P(A \cap B)}{P(B)} \]

Pense em redefinir o evento e o espaço amostral com base em novas informações.

Probabilidade Condicional e Independência

Relação

Qual é a relação entre independência e probabilidade condicional?

Suponha que \(A\) e \(B\) sejam independentes e \(P(B) > 0\), então:

\[ P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{P(A)P(B)}{P(B)} = P(A) \]

  • Isso é consistente com nossa intuição — a ocorrência de \(B\) não nos diz nada sobre a probabilidade de \(A\), então a probabilidade condicional é igual à probabilidade incondicional.

  • Observe que a implicação é bidirecional: \(P(A|B) = P(A)\) se, e somente se, \(A\) e \(B\) forem independentes.

Teorema da Probabilidade Total

Enunciado

Se \(\{A_1,A_2,\dots,A_k\}\) é uma coleção de eventos mutuamente exclusivos e exaustivos, então, para qualquer outro evento \(B\):

\[ P(B) = \sum_{i=1}^k P(B|A_i)P(A_i) \]

Questão: Risco de Inadimplência

Um banco possui dois perfis de clientes:

  • 70% têm bom crédito \(\rightarrow\) \(B_1\): cliente tem bom crédito \(\rightarrow\) \(P(B_1) = 0.7\)
  • 30% têm crédito ruim \(\rightarrow\) \(B_2\): cliente tem crédito ruim \(\rightarrow\) \(P(B_2) = 0.3\)

As taxas de inadimplência são:

  • 5% para clientes com bom crédito \(\rightarrow\) \(P(A|B_1) = 0.05\)
  • 20% para clientes com crédito ruim \(\rightarrow\) \(P(A|B_2) = 0.20\)

Qual a probabilidade de um cliente qualquer ser inadimplente?

Solução

Pelo Teorema da Probabilidade Total:

\[ P(A) = P(A \mid B_1) \cdot P(B_1) + P(A \mid B_2) \cdot P(B_2) \]

Substituindo os valores:

\[ P(A) = 0.05 \cdot 0.7 + 0.20 \cdot 0.3 = 0.035 + 0.06 = {0.095} \]

A probabilidade total de inadimplência para qualquer cliente é de 9,5%.

Teorema de Bayes

Enunciado

Se \(\{A_1,A_2,\dots,A_k\}\) é uma coleção de eventos mutuamente exclusivos e exaustivos, então, para qualquer outro evento \(B\), com \(P(B) > 0\), temos:

\[ P(A_i \mid B) = \frac{P(B \mid A_i) \cdot P(A_i)}{\sum_{j=1}^k P(B \mid A_j) \cdot P(A_j)} \]

Exemplo: Classificador de Risco de Crédito

Um banco utiliza um modelo de classificação de risco de inadimplência para avaliar novos clientes. Com base em dados históricos:

  • 10% dos que aplicam são realmente inadimplentes
  • 90% são adimplentes

O modelo apresenta os seguintes desempenhos:

  • Sensibilidade (acerto entre inadimplentes):
    \(P(\text{classificado como alto risco} \mid \text{inadimplente}) = 0.9\)

  • Falsos positivos (classifica adimplente como arriscado):
    \(P(\text{classificado como alto risco} \mid \text{adimplente}) = 0.2\)

Nomeando os eventos:

  • \(A_1\): cliente é inadimplente
  • \(A_2\): cliente é adimplente
  • \(B\): cliente foi classificado como alto risco pelo modelo

Queremos calcular:

\[ P(A_1 \mid B) = P(\text{inadimplente} \mid \text{classificado como alto risco}) \]

Aplicando o Teorema de Bayes:

\[ P(A_1 \mid B) = \frac{P(B \mid A_1) \cdot P(A_1)} {P(B \mid A_1) \cdot P(A_1) + P(B \mid A_2) \cdot P(A_2)} \]

Substituindo os valores:

\[ P(A_1 \mid B) = \frac{0.9 \cdot 0.10} {0.9 \cdot 0.10 + 0.2 \cdot 0.90} = \frac{0.09}{0.09 + 0.18} = \frac{0.09}{0.27} \approx \boxed{0.333} \]

Mesmo com um modelo que acerta 90% dos inadimplentes, a chance de um cliente classificado como “alto risco” realmente ser inadimplente é de 33,3%.

Isso mostra que:

  • A baixa prevalência da inadimplência (10%) limita o valor preditivo positivo do modelo.

  • O Teorema de Bayes permite avaliar a utilidade real da classificação de risco feita pelo modelo.

  • O Teorema de Bayes nos permite atualizar uma estimativa de probabilidade (a priori) com base em nova evidência observada.

  • Neste caso, atualizamos a prabobilidade de inadimplência de 10% para 33,3% após sabermos que o cliente foi classificado como alto risco.

2 Variáveis Aleatórias e Distribuições de Probabilidade

Probabilidade \(\rightarrow\) Eventos

Probabilidade

  • Espaço amostral: \(S\)
  • Eventos = subconjuntos de \(S\)
  • Coleção de todos os eventos: \(\boldsymbol{2^S}\)

\[ P: 2^S \rightarrow [0, 1] \]

\[ \large 2^S \xrightarrow{\hspace{0.5cm}P\hspace{0.5cm}} [0,1] \]

A probabilidade é uma função definida sobre eventos (conjuntos).

A Evolução da Teoria da Probabilidade

O Caso Discreto: Espaços Finitos e Contáveis

Para um espaço amostral \(S\) finito ou contável (onde podemos “contar” os resultados, mesmo que infinitos):

  • \(2^S\) representa todos os grupos possíveis de resultados

  • Cada grupo é um evento ao qual podemos atribuir probabilidade

  • A probabilidade de qualquer evento \(A \subseteq S\) é definida por:

    \[ P(A) = \sum_{s \in A} P(\{s\}) \]

Por que funciona?

  • Podemos listar todos os resultados possíveis
  • Podemos atribuir probabilidade a cada resultado individual
  • A soma de todas as probabilidades é igual a 1
  • \(2^S\) funciona naturalmente como uma σ-álgebra

Exemplo:

Seja \(S = \{C, T\}\) (cara, coroa) no lançamento de uma moeda:

  • \(2^S = \{\emptyset, \{C\}, \{T\}, \{C, T\}\}\)
  • \(P(\{C\}) = 0.5\), \(P(\{T\}) = 0.5\)
  • \(P(\emptyset) = 0\), \(P(\{C, T\}) = 1\)

O Problema dos Espaços Não-Contáveis

Quando \(S\) é não-contável (ex: todos os pontos entre 0 e 1):

  • \(2^S\) contém conjuntos “patológicos” (estranhos)
  • É impossível definir probabilidades consistentes para todos os conjuntos
  • Surge o Paradoxo de Vitali (1905), que mostra que não existe uma forma de medir que:
    • Não muda quando movemos o conjunto (invariância por translação)
    • Funcione para todos os subconjuntos de \(\mathbb{R}\)
    • Seja compatível com nosso conceito usual de comprimento

Consequência: Precisamos restringir nossa atenção apenas aos conjuntos “bem-comportados”

Solução: \(\sigma\)-Álgebras e Teoria da Medida

Uma coleção \(\mathcal{F} \subseteq 2^S\) é uma \(\sigma\)-álgebra se:

  1. \(S \in \mathcal{F}\)
  2. Fechada por complemento: \(A \in \mathcal{F} \Rightarrow A^c \in \mathcal{F}\)
  3. Fechada por união contável: \(A_1, A_2, \ldots \in \mathcal{F} \Rightarrow \bigcup_{i=1}^\infty A_i \in \mathcal{F}\)

A σ-Álgebra de Borel

Para espaços contínuos, usamos a \(\sigma\)-álgebra de Borel \(\mathcal{B}(\mathbb{R})\):

  • Construída a partir de todos os intervalos abertos
  • Contém todos os conjuntos “razoáveis” (intervalos, uniões, interseções)
  • Exclui os conjuntos “patológicos”

Um espaço de probabilidade é agora a tripla \((S, \mathcal{F}, P)\) onde:

  • \(S\): espaço amostral
  • \(\mathcal{F}\): \(\sigma\)-álgebra de eventos mensuráveis
  • \(P\): função de probabilidade \(P: \mathcal{F} \rightarrow [0, 1]\)

A Importância da Integral de Lebesgue

Esta nova abordagem exigiu o desenvolvimento da integral de Lebesgue, que:

  • Funciona perfeitamente com a teoria da medida
  • Permite calcular probabilidades e valores esperados em contextos gerais
  • Unifica o tratamento de casos discretos e contínuos
  • Possibilita teoremas poderosos de convergência

Exemplo: O valor esperado de uma variável aleatória \(X\) é definido como:

\[ E[X] = \int_S X(s) \,dP(s) \]

(uma integral de Lebesgue em relação à medida de probabilidade)

Conclusão: Uma Teoria Unificada

Para Espaços Discretos

  • \(2^S\) já é uma σ-álgebra perfeita
  • A teoria de medida funciona naturalmente
  • Podemos trabalhar com todos os subconjuntos

Para Espaços Contínuos

  • Precisamos restringir às \(\sigma\)-álgebras
  • Evitamos paradoxos matemáticos
  • Mantemos consistência teórica

A teoria moderna da probabilidade unifica ambos os casos através:

  1. Espaços mensuráveis \((S, \mathcal{F})\)
  2. Medidas de probabilidade \(P\)
  3. Integral de Lebesgue para cálculos

Esta fundamentação sólida permitiu o desenvolvimento avançado da teoria probabilística e suas aplicações modernas.

Antes da Variável Aleatória

Probabilidade de eventos de \(S\)

Processo Aleatório: Jogar uma moeda honesta duas vezes.

  • Espaço amostral:

\[ S = \{HH, HT, TH, TT\}. \]

Problema: Qual a probabilidade de obter exatamente uma cara?

  • Conjunto de resultados favoráveis:

    \[ A = \{HT, TH\}. \]

  • Probabilidade: \[ P(A) = \frac{|A|}{|S|} = \frac{2}{4} = 0.5. \]

Problema: Qual a probabilidade de obter duas caras?

  • Conjunto de resultados favoráveis:

    \[ B = \{HH\}. \]

  • Probabilidade:

    \[ P(B) = \frac{|B|}{|S|} = \frac{1}{4} = 0.25. \]

Antes do conceito de VA, os cálculos eram feitos diretamente sobre eventos \(S\), sem uma função que mapeasse esses resultados para números.

Variável Aleatória

Motivação

  • Os axiomas de probabilidade são gerais o suficiente para descrever muitas formas de aleatoriedade (por exemplo, cara ou coroa, um sorteio de uma carta de um baralho ou um retorno futuro do IBovespa).

  • No entanto, aplicar a probabilidade diretamente a eventos pode ser difícil porque eventos podem ser qualitativos, abstratos.

  • Muitas vezes, há alguma característica numérica do espaço amostral em que estamos interessados​​, por exemplo:

  • a soma das faces de dois dados;

  • o número de inadimplentes em uma carteira de crédito no próximo mês;

Variável Aleatória

Variável Aleatória \(X\)

  • Uma função: \(X: S \rightarrow \mathbb{R}\)
  • Uma Variável Aleatória é uma função com valores reais cujo domíno é o espaço amostral \(S\).

\[ \large S \xrightarrow{\hspace{0.5cm}X\hspace{0.5cm}} \mathbb{R} \]

\[ P(X \in A) = P\{s: X(s) \in A\} \]

  • A probabilidade da VA \(X\) assumir um valor no conjunto \(A\) é igual à probabilidade do evento (em \(S\)) formado por todos os resultados \(s\) cuja imagem, \(X(s)\), pertence a \(A\).

  • Uma VA mapeia resultados de \(S\) para números, e a probabilidade definida sobre \(S\) induz uma distribuição da VA.

Exemplo: Variável Aleatória em Ação

Variável Aleatória em Ação

Processo Aleatório: Jogar uma moeda honesta duas vezes.

  • Espaço amostral:

\[ S = \{HH, HT, TH, TT\}. \]

Defina a variável aleatória:

\[ X(s) = \text{número de caras em } s. \]

\(S\) \(X(s)\)
TT 0
HT 1
TH 1
HH 2

Distribuição de \(X\)

  1. Evento em S: {TT} → Valor de X: X(s) = 0 → Probabilidade Induzida: P(X = 0) = P({TT}) = 1/4
  2. Evento em S: {HT, TH} → Valor de X: X(s) = 1 → Probabilidade Induzida: P(X = 1) = P({HT, TH}) = 2/4
  3. Evento em S: {HH} → Valor de X: X(s) = 2 → Probabilidade Induzida: P(X = 2) = P({HH}) = 1/4

Obs: \(P(X = 0)\) é uma abreviação para \(P\{s: X(s) = 0\}\)

\[ S \xrightarrow{\hspace{0.3cm}X\hspace{0.3cm}} \mathbb{R} \]

  1. Uma VA mapeia resultados de \(S\) para números;
  2. A probabilidade definida sobre \(S\) induz uma distribuição da VA \(X\)

De Eventos a Variáveis Aleatórias ⟷ De Texto a Números

Probabilidade

  • Eventos: resultados qualitativos do espaço amostral
    • Ex.: {cara, coroa}
  • Variável Aleatória (VA): atribui números a eventos
    • Cara → 1
    • Coroa → 0
  • Permite aplicar álgebra, cálculo e estatística.

Modelos de Linguagem

  • Texto cru: sequência de palavras/tokens

    • Ex.: {“finanças”, “risco”}
  • Embeddings: mapeiam palavras para vetores numéricos

    • “finanças” → (0.12, -0.83, …)
    • “risco” → (0.45, 0.22, …)
  • Permite aplicar aprendizado estatístico e redes neurais.

  • Em ambos os casos, ocorre uma mudança de representação:
    de qualitativo → quantitativo, abrindo caminho para o uso das ferramentas matemáticas.

Variável Aleatória Discreta

Definição

Uma VA discreta pode assumir somente um número finito ou contavelmente infinito de valores.

Descrição

  • Para VA discretas, podemos começar com uma descrição verbal, calcular probabilidades para cada valor da VA e, em seguida, escrever uma função ou desenhar um gráfico descrevendo essas probabilidades para diferentes valores da variável aleatória.

  • Chamamos a função, tabela ou gráfico que associe a cada \(X\) sua probabilidade de ocorrer, uma distribuição de probabilidade de \(X\).

Distribuição de Probabilidade de uma VA Discreta

Exemplo

Seja \(X\) o número de arremessos de 3 pontos que Steph Curry acerta nos próximos seis arremessos que ele fizer.

Podemos calcular a probabilidade de que \(X = 0, 1, 2\) e assim por diante, até o máximo de 6, usando:

\[ \binom{6}{x} (0.44)^x (0.56)^{6-x} \]

Distribuição de Probabilidade de \(X\)

\(X\) \(P(X = x)\)
0 0.03
1 0.15
2 0.29
3 0.30
4 0.18
5 0.06
6 0.01

Distribuição de Probabilidade de \(X\)

Distribuição de Probabilidade de X

VA Discreta

Função de Probabilidade

A funçao de probabilidade de uma VA discreta \(X\) é a função \(f_X(x)\), tal que para qualquer número real \(x\):

\[ f_X(x) = p(X = x) \]

A função de probabilidade tem propriedades induzidas pela definição axiomática de probabilidade. Em particular:

\[ \begin{align*} 0 \leq f_X(x_i) \leq 1 \\ \sum_i f_X(x_i) = 1 \\ P(A) = P(X \in A) = \sum_{x_i \in A} f_X(x_i) \end{align*} \]

Variável Aleatória Contínua

Definição

  • Uma VA contínua que pode assumir qualquer valor em algum intervalo, limitado ou ilimitado, de \(\mathbb{R}\).

  • Para VA contínuas, raramente começamos com uma descrição verbal que usamos para calcular probabilidades. Em vez disso, normalmente nos é dada uma função, chamada densidade, que descreve a probabilidade de a variável aleatória estar em várias regiões.

Função Densidade de Probabilidade

Figura 1: Curvas de densidade

Função Densidade de Probabilidade

Definição

  • A função (densidade) de probabilidade, é a análoga contínua da FP discreta em muitos aspectos.

Definição em termos da FPD

  • Uma VA \(X\) é contínua se existe uma função não negativa \(f_X\) tal que para qualquer intervalo \(A \subset \mathbb{R}\):

\[ P(X\in A) \;=\; \int_{A} \underbrace{f_X(x)}_{\text{Esta é a fdp}}\, dx \]

Variável Aleatória Contínua

Função Densidade de Probabilidade

Assim como A FP, a FDP possui propriedades induzidas pela definição anterior de probabilidade. Em particular,

\[ \begin{align*} f_X(x_i) \geq 0 \quad \text{(pode ser maior que 1)}\\ \int f_X(x) = 1 \quad \text{(integral = 1, ao invés da soma)} \\ P(A) = P(a \leq X \leq b) = \int_A f_X(x)dx \end{align*} \]

Probabilidade pontual

Para uma VA X contínua, \(P(X = x) = 0\) para todo \(x\), pois integramos \(f_X\) em uma região particular para calcular a probabilidade de que a VA esteja nesta região.

Função Densidade de Probabilidade

Função de Distribuição Acumulada

Motivação

  • Às vezes, é útil poder expressar probabilidades relacionadas a uma variável aleatória em uma forma alternativa.

  • Duplamente útil é o fato de que essa forma alternativa tem a mesma definição, independentemente de a variável aleatória ser discreta ou contínua.

Função de Distribuição Acumulada

Definição

  • A função de distribuição acumulada (FDA), \(F_X\) , de uma VA \(X\) é definida para cada \(x\) como:

\[ F_X(x) = P(X \leq x) \]

  • A FDA também possui propriedades induzidas pela definição de probabilidade:
  1. \(0 \leq F_X(x) \leq 1\)

  2. \(F_X(x)\) é não-decrescente em \(x\)

  3. \(\lim_{x \to -\infty} F_X(x) = 0\)

  4. \(\lim_{x \to \infty} F_X(x) = 1\)

Função de Distribuição Acumulada

Figura 2: FDA de uma Variável Aleatória Discreta.

Função de Distribuição Acumulada

Figura 3: FDA de uma Variável Aleatória Contínua.

Função de Distribuição Acumulada

Apenas Representações Alternativas

  • As FP, FDP e FDA para uma VA particular contém exatamente a mesma informação sobre sua distribuicão, apenas em forma diferente.

  • Faz sentido, então, perguntar se, dada a FP/FDP, seria possível recuperar a FDA e vice-versa?

  • Sim, e para VA Contínuas podemos obter com:

\[ \begin{align*} F_X(x) = P(X \leq x) = \int_{-\infty}^x f_X(s)dx \\ f_X(x) = \frac{dF_X(x)}{dx} \end{align*} \]

Função de Distribuição Acumulada

Vantagens do uso da FDA

  • Generalidade: a FDA existe para qualquer distribuição (discreta ou contínua).

  • Conveniência e Estabilidade numérica: em vez de calcular manualmente a integral da densidade, basta usar uma FDA implementada em R (pnorm, pbeta, pexp, etc.), que já incorpora algoritmos numéricos confiáveis.

# P(-1 <= X <= 1) = P(X <= 1) - P(X <= -1)
p_fda <- pnorm(1, mean = 0, sd = 1) - pnorm(-1, mean = 0, sd = 1)
p_fda
[1] 0.68269
# retorna o valor de f(x = 1) (não é probabilidade!)
# altura da curva em x = 1 
d_val <- dnorm(1, mean = 0, sd = 1)
d_val
[1] 0.24197

Funções de Probabilidade

O que você deve saber sobre uma FP?

  • A atribuição de uma probabilidade ou densidade de probabilidade a todo valor concebível de \(Y_i\).

  • Os princípios fundamentais

  • Como usar a expressão final (mas não necessariamente a derivação completa da expressão).

  • Como simular a partir da densidade.

  • Como calcular características da densidade, como seus “momentos”.

  • Como verificar se a expressão final é de fato uma função de densidade adequada.

3 Distribuição de Probabilidade Conjunta, Marginal e Condicional

Distribuição Conjunta de Probabilidade

Introdução

  • Em nossa primeiro encontro com probabilidade, abordamos o cálculo de probabilidade para eventos.

  • Em seguida, introduzimos os conceitos de independência e probabilidade condicional também entre eventos.

  • Agora, trataremos de conceitos análogos no contexto de variáveis ​​aleatórias, mas primeiro precisamos da distribuição conjunta de probabilidade.

  • No caso em que apenas duas variáveis ​​aleatórias estão envolvidas, as chamamos de distribuições bivariadas.

Distribuição Conjunta de Probabilidade

Por que?

Podemos estar interessados na relação e no comportamento conjunto de duas ou mais VAs:

  • Retorno das ações de empresas listadas e seus índices de governança corporativa
  • Estrutura de capital (endividamento) e lucratividade das firmas em um mesmo setor
  • Taxa de câmbio dólar/euro e o preço das ações de uma empresa exportadora

Distribuição Conjunta de Probabilidade

Definição

Distribuição Bivariada Contínua

Se \(X\) e \(Y\) são VAs contínuas definidas no mesmo espaço amostral \(S\), então, a função de densidade conjunta de \(X\) e \(Y\) é representada por \(f_{xy}(x, y)\) é a superfície tal que para toda qualquer região \(A\) definida no plano \(xy\) é dada por:

\[ P((X,Y) \subset A) = \int \int_{A} f_{XY}(x, y)\,dx\,dy = 1 \]

Como antes, as propriedades de probabilidade implicam certas propriedades da PDF conjunta, como ela deve integrar-se a 1 sobre o plano \(xy\), e qualquer ponto individual ou curva unidimensional tem probabilidade zero.

Distribuição Bivariada Discreta

A função de probabilidade conjunta para VAs discretas é dada por:

\[ f_{XY}(x, y) = P(X = x \cap Y = y) \]

Distribuição Conjunta de Probabilidade

Distribuição Bivariada Contínua: a) Superfície, b) Gráfico de Contorno

Distribuição Conjunta de Probabilidade

Distribuição Bivariada Discreta

Distribuição Conjunta Contínua

Exemplo

  • Suponha que uma professora, depois de horas preparando aulas, sinta uma dor de cabeça terrível.

  • Ela encontra um comprimido de naproxeno e um de paracetamol. Toma os dois.

  • Seja \(X\) o período de eficácia do naproxeno. Seja \(Y\) o período de eficácia do paracetamol.

Questão 1

  • Qual é a probabilidade da dor de cabeça da professora voltar em três horas? Isto é: \(P(X \leq 3 \cap Y \leq 3)\)?

Solução da Questão 1

  • Nesse caso, podemos utilizar a distribuição exponencial, frequentemente usada para modelar tempos de duração até um evento, como o efeito de um medicamento.

  • A FDP exponencial é: \(f_X(x) = \lambda e^{-\lambda x}, \; x \geq 0\).

  • Vamos supor independência entre \(X\) e \(Y\), o que permite escrever a FDP conjunta como o produto das densidades individuais (marginais):

  • Portanto, a distribuição conjunta para \(X\) e \(Y\) é:

\[ f_{XY}(x,y) = \lambda^2 \exp\{-\lambda (x + y)\} \quad \text{para } x,y \geq 0 \]

  • Para calcular \(P(X \leq 3 \cap Y \leq 3)\), precisamos integrar a FDP conjunta na seguinte região:

\[ \begin{aligned} &= \int_{0}^{3} \int_{0}^{3} \lambda^2 \exp\{-\lambda (x + y)\}\,dx\,dy \\ &= \ldots, \quad \text{significam que você pode desenvolver os detalhes como tarefa}\\ &= \bigl(1 - \exp(-3\lambda)\bigr)^2 \end{aligned} \]

Observação

Para obter uma probabilidade numérica, precisaríamos coletar dados sobre os tempos de eficácia, estimar o parâmetro \(\lambda\) (por exemplo, via máxima verossimilhança) e então substituir esse valor na expressão final.

Questão 2

E se definirmos uma nova variável aleatória \(Z\) = vida útil total efetiva de naproxeno e paracetamol tomados sequencialmente? Isto é \(Z = X + Y\). O que é \(F_Z(z)\)?

Solução da Questão 2

  • A variável \(Z\) representa o tempo total de alívio da dor, assumindo que os efeitos de \(X\) (naproxeno) e \(Y\) (paracetamol) se somam quando os medicamentos são tomados em sequência.

  • No exemplo anterior, ao calcular \(P(X \leq 3 \cap Y \leq 3)\), já estávamos integrando sobre a região \(x+y \leq 3\), o que equivale a calcular \(F_Z(3)\).

  • Em geral, para \(z \geq 0\), temos:

\[ F_Z(z) = P(X+Y \leq z) = \iint_{x+y \leq z} f_{XY}(x,y)\,dx\,dy = 1 - (1 + \lambda z)e^{-\lambda z}. \]

  • Esse resultado mostra que \(Z\) segue uma distribuição Gama com parâmetros:

    • forma \(k = 2\) (soma de duas exponenciais),
    • taxa \(\lambda\), ou equivalente, escala \(\theta = 1/\lambda\).
  • Mais geralmente, se \(Z = X_1 + X_2 + \cdots + X_n\) com \(X_i \sim \text{Exp}(\lambda)\) independentes, então \(Z \sim \text{Gamma}(k=n, \theta=1/\lambda)\).

Questão 3

O que é \(f_Z(z)\)?

Solução da Questão 3

  • Basta derivar \(F_Z(z)\) em relação a \(z\):

\[ f_Z(z) = \frac{d}{dz}F_Z(z) = \lambda^2 z e^{-\lambda z}, \quad z \geq 0. \]

  • Esta é exatamente a fdp de uma distribuição Gama com parâmetros forma \(k=2\) e taxa \(\lambda\).

  • Observação: podemos verificar que \(f_Z(z)\) é válida, pois \(\int_0^\infty f_Z(z)\,dz = 1\).

Distribuição Conjunta Discreta

Exemplo

  • Relação entre retorno de uma ação e a classificação de um analista.
  • Retornos possíveis: −5%, 0% ou 5%.
  • Classificações: negativa (−1), neutra (0), positiva (1).
Analista (\(X_2\))
Retorno da Ação (\(X_1\))
-5% 0% 5%
Negativa (-1) 20% 10% 0%
Neutra (0) 10% 15% 15%
Positiva (1) 5% 5% 20%
  • Esta função de probabilidade representa a distribuição conjunta de \(X_1\) e \(X_2\) e fornece uma descrição completa da incerteza em ambas as VAs.

  • \(P(X_1 = -5\% \cap X_2 = \text{Neutra}) = 10\%\)

  • \(\vdots\)

Distribuição Marginal

Conceito e Exemplo

  • A distribuição de um único componente de uma distribuição conjunta é chamada de distribuição marginal.

  • A distribuição marginal de \(X_1\) e \(X_2\) contém as probabilidades de realizações de \(X_1\) e \(X_2\) e suas FP são \(f_{X_1}(x_1)\) e \(f_{X_2}(x_2)\).

  • Uma FP marginal é definida por:

\[ f_{X_1}(x_1) = P(X_1 = x_1) = \sum_{x_2} f_{XY}(x_1, x_2) \quad\rightarrow\quad f_X(x) = \int_A f_{XY}(x, y) dy \]

e

\[ f_{X_2}(x_2) = P(X_2 = x_2) = \sum_{x_1} f_{XY}(x_1, x_2) \quad\rightarrow\quad f_Y(y) = \int_A f_{XY}(x, y) dx \]

  • Quando uma FP é representada como uma tabela, as duas distribuições marginais são calculadas pela soma entre colunas (o que constrói a distribuição marginal da variáveis ​​de linha) ou pela soma entre linhas (o que constrói a distribuição marginal para as variáveis ​​de coluna).

  • No caso do exemplo, temos:

Analista (\(X_2\))
Retorno da Ação (\(X_1\))
\(f_{X_2}(x_2)\)
-5% 0% 5%
Negativa (-1) 20% 10% 0% 30%
Neutra (0) 10% 15% 15% 40%
Positiva (1) 5% 5% 20% 30%
\(f_{X_1}(x_1)\) 35% 30% 35% 100%

Distribuição Condicional

Conceito e Exemplo

  • Similarmente à ideia de probabilidade condicional, queremos introduzir a distribuição condicional, que permite “atualizar” a distribuição de uma variável aleatória, se necessário, dadas informações relevantes.

  • A distribuição condicional, resume a probabilidade dos resultados de uma variável aleatória condicionada à outra assumir um valor específico.

  • A distribuição condicional de \(X_1\) dado \(X_2 = x_2\) é definida como:

\[ f_{X_1 \mid X_2}(X_1 \mid X_2 = x_2) = \frac{f_{X_1,X_2}(x_1, x_2)}{f_{X_2}(x_2)} \]

Exemplo: distribuição condicional de \(X_1\) dado \(X_2 = 1\) (Positiva).

Pela tabela anterior, a distribuição marginal de \(X_2 = 1\) é \(f_{X_2}(1) = 30\%\), logo:

\[ \begin{aligned} f(X_1 = -5\% \mid X_2 = 1) &= \tfrac{5\%}{30\%} = \tfrac{1}{6} \approx 16{,}7\% \\ f(X_1 = 0\% \mid X_2 = 1) &= \tfrac{5\%}{30\%} = \tfrac{1}{6} \approx 16{,}7\% \\ f(X_1 = 5\% \mid X_2 = 1) &= \tfrac{20\%}{30\%} = \tfrac{2}{3} \approx 66{,}7\% \end{aligned} \]

Retorno da Ação (\(X_1\)) \(f(X_1 \mid X_2 = 1)\)
-5% 16,7%
0% 16,7%
5% 66,7%

Distribuição Condicional

Distribuições condicionais de y (despesas com alimentação) dados dois níveis \(x\) (renda).

Distribuições Conjunta, Marginal e Condicional

Relação com Independência

Não é de surpreender que exista uma relação entre distribuições condicionais e independência:

\[ f_{Y|X}(y|x) = f_Y(y) \, \text{se, e somente se,} \, f_{XY}(x,y) = f_X(x)\cdot f_Y(y) \\ \text{se, e somente se, X e Y são independentes} \]

Interpretação:

  • Se duas VAs são independentes, saber algo sobre as realizações de uma não diz nada sobre a distribuição da outra.

  • Em outras palavras, o condicionamento em x não faz com que você atualize a distribuição de Y, se X e Y são independentes

Referências

DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Thomson, 2006.